🦊Framepack 1フレーム推論

👉 |

参考

https://github.com/kohya-ss/musubi-tuner/blob/main/docs/framepack_1f.mdFramePack One Frame (Single Frame) Inference and Training / FramePack 1フレーム推論と学習

https://note.com/kohya_ss/n/nbd94d074ddef?sub_rt=share_pbFramePackの推論と1フレーム推論、kisekaeichi、1f-mcを何となく理解する

https://note.com/kazuya_bros/n/n0cd26fe98d53【FramePack】話題の動画生成AIで画像生成的なことをやってみた【eichi】

画像編集として見る動画生成モデル

画像編集の中でも、LoRAを使わずにキャラクターの顔や雰囲気を変えずに「ポーズを変える」「髪型を変える」といった編集をするのはかなり難しいタスクです。ポーズを変えられても別人になっていたりします

そこで、動画生成モデルを画像編集に応用するというアイデアがかなり前からありました

動画生成モデルは時間的に一貫性のある動画を作ります。最初に出てきたキャラが終盤全く別のキャラに変化してしまうなんてことはありません(昔はよくあったけど)

「キャラクターがジャンプしている動画」を作れば、実質的にジャンプしている差分画像を生成できます

1フレーム(だけ)推論(する)

いいアイデアですが、画像編集として見た場合、欲しいのは「ジャンプ中の1フレーム」だけです。そこ行き着くまでの数十フレームは、ただ推論の時間を増やすだけの邪魔なものです

そこで生まれたのが、中間フレームをすっ飛ばして最終結果だけ得る。1フレーム推論です

(ただ、これが出来るのはFramePackの特殊な設計のおかげらしいので、他の動画生成モデルで同じ事ができるかは分からない)

モデル/カスタムノード

パラメータ

https://github.com/git-ai-code/FramePack-eichi/blob/main/README/framepack_oichi_user_friendly_guide.mdFramePack-oichiなんとなく理解ガイド：あの謎パラメータたちとゆる～く仲良くなろう

を読んでください(丸投げ)

聞き馴染みのないパラメータは基本触らなくて良いです

1フレーム推論

https://gyazo.com/8e7fc6c4ed07e836eaa705f70df0b9b3

LoRA

画像編集タスクを特殊な動画として捉え(360度回転、落書きから実写へのトランジション)、専用のLoRAを作ることでControlNetにも近い制御が可能になります

LoRAの保存場所は通常のLoRAと同様です

$ path\to\ComfyUI\models\loras

https://gyazo.com/2bca6af80b21ed99731da4b0615762d9

Kisekaeichi

最初の画像だけでなく、次のセクションにもなにかしら画像を入れると、それを参照画像として画像編集が行われる(らしい)

https://gyazo.com/d274dc358f7e8cd9af8969d24a53711b

🟪KisekaeichiではLoRAが無くても動くはずですが、全く安定しなかったため今回はKohyaさんの着せ替えLoRAを使っています

入力画像が小さすぎるとうまく行かないため総ピクセル数が1.0Mになるようにリサイズ

Grounding Dino SAMで入力画像・参照画像ともに服装部分をマスクします

🟦🚨FramePack-eichiの実装に合わせたためだとは思いますが、入力画像のマスクの白黒の役割が逆になっているので反転させます

全然仕組みはわかってないですがVACEみたいなものなので、着せ替えに限った技術ではないですnomadoor.icon